音声情報処理 10
⾃動作曲・編曲・表情付け
人間だけができるものって?
計算機に作曲させる
⾼度な知的活動の代名詞
ゲーム⾳楽のBGM
何が解決されていれば「作曲に成功」と⾔えるのか?
詳しい項目は教科書参照
⽬標
何を⽬的とした作曲なのか
対象
項目
⽣成⽅式
どのように作るのか
項目
決定的
ルール
事例
非決定的
制御⽅式
ユーザからの⼊⼒
項目
数値
形容詞
自動
完全自動
半自動
作曲・編曲が本来抱える問題
研究課題の設定と評価におけるあいまい性
1. 技術そのものの評価と⽣成された表現の評価が対応しない
2. 楽曲が⾳楽規則を守っているという正しさは,⼈間の意図を反映した表現であるかと対応しない
3. 楽曲は楽曲のみで存在しない
様々な用途がある
課題の定義が複雑であり,多様な解が存在し得る
例
「好きな楽曲を作って!」→好きってどういうこと?
技術そのものの評価と⽣成された表現の評価の対応
⾼い技術がすなわち,⾼い⾳楽性や選好性を保証するわけではない 技術の改良は直接/間接的に選好性の改良に貢献?
技術的に改良すべき点を同定する評価も難しい
⼈は,その表現が⾃分の意図にとって適切か,好きかを本⼈ですら判定できないことすらある
例
論理的に好きな理由を理解しているわけでない
作者意図が聞き手が理解するわけでない
だからこそ,作曲というのは特別な活動
作曲していても,よく分からない・・・
構造的な普遍性を規定する⾳楽的な規則に従うだけでは不⼗分 統計的なもっともらしいことが常に妥当ではない
⾳楽性を⾼める逸脱と選好性を⾼める逸脱の違い
ユーザの意図をどのように受け⼊れるのか
楽譜エディタでの操作:スキルが必要
パラメータや⼤まかな指⽰:曖昧な⼊⼒になる
楽曲は楽曲のみで存在しない
編曲,演奏,⾳⾊,歌詞,関連⽂書,映像,思い出
例
「ジブリの楽曲」の何に対して感動しているのか?本当に楽曲だけを分離可能なのか?
楽曲の印象に映画の印象が付与
ユーザの⽬的,あるいは聴取コンテキストに依存する
外部的な要因に由来する曖昧さをもつ
正解データは存在するのか?
⼀般的には,「正解コーパス」と同じものを作ればOK
⾳楽においては,むしろこれまでにない⾳楽を作ることが創造的で評価されるべき⼿法ではないのか?
ソーシャルフィルタリングの難しさ
楽曲の類似度を定義する必要がある
個⼈にとっての楽曲の類似を測る観点が異なる可能性
例
知ってる知識によって違う
システムに⼊⼒された楽譜に対して
フレーズや和声などを取得
各⾳符の⾳量・⾳⻑・テンポを調整
A) ルール型
演奏知識をルールとして組み込む
例
スタッカートは時間⻑を短く
フレーズの最初は⾳量を⼤きく
⼈間にとって直感的に理解可能
B) 事例型
対象楽曲に類似した演奏事例をDBから検索し,転写
あの曲の雰囲気に似た感じ
⼈間は演奏表情⾃体を理解していなくても付与できる
操作が直感的
C) 学習型
実演奏から,演奏ルールなどに関わるパラメータを学習
近年の主流な表情付けシステム
それぞれの技術的課題
A) ルール型
本質的な演奏ルールの発⾒と制御パラメータの集約
演奏ルール多→ユーザの制御するパラメータ多
演奏ルール少→ユーザの意図の反映⼒少
B) 事例型
データのスパース性(疎)への対処
似た事例がどれほど確保できるのか
似せたいものと似た事例
C) 学習型
演奏表情の抽出
どのように⾳響的特徴量と対応付けるのか